데이터분석 준전문가 랜덤

데이터 이해


1. 빅데이터가 미치는 영향이 아닌 것은?
  • 1
     고객에게 획일화된 서비스 제공
  • 2
     맞춤형 서비스 확대
  • 3
     업무 프로세스 최적화
  • 4
     새로운 가치 창출

2. 다음 중 데이터베이스의 특징에 대한 설명으로 잘못된 것은 무엇인가?
  • 1
     통합된 데이터: 데이터 중복을 허용함의 의미한다
  • 2
     저장된 데이터: 컴퓨터와 같은 전자기기가 접근할 수 있는 매체에 저장되는 것을 의미한다
  • 3
     공용 데이터: 여러 사용자가 공동의 목적을 위해 사용하는 데이터임을 의미한다
  • 4
     변화하는 데이터: 항상 최신의 정확한 상태를 유지해야 함을 의미한다

3. 데이터베이스에 대한 설명으로 적절하지 않은 것은?
  • 1
     한 조직의 다수 사용자가 공동으로 이용하고 유지하는 공용데이터이다.
  • 2
     DBMS 소프트웨어를 사용하여 데이터베이스를 구축한다.
  • 3
     법률적으로 데이터베이스는 기술을 기반으로 한 일종의 저작물로 인정한다.
  • 4
     데이터베이스내의 모든 데이터는 2차원 테이블로 표현된다.

4. 인공지능의 한 종류로 방대한 양의 데이터로부터 컴퓨터가 패턴과 규칙을 찾고 이를 학습하여 분류 또는 예측에 활용하는 빅데이터 분석 기법은 무엇인가?
  • 1
     머신러닝
  • 2
     강화학습
  • 3
     감정분석
  • 4
     유전 알고리즘

5. 빅데이터가 만들어내는 변화로 옳은 것은?
  • 1
     사후조사 → 사전예측
  • 2
     표본조사 → 전수조사
  • 3
     질적분석 → 양적분석
  • 4
     인과관계 → 상관관계

6. 사생활 침해 방지 기술에 해당하는 것으로 개인 식별 정보를 삭제하거나 알아 볼 수 없는 형태로 변환하는 포괄적 기술로 올바른 것은?
  • 1
     익명화
  • 2
     데이터 마스킹
  • 3
     가명
  • 4
     데이터 값 삭제

7. 사용자와 데이터베이스 사이에서 사용자 요구에 따라 정보처리 데이터베이스 관리를 하는 소프트웨어를 무엇이라고 하는가?
  • 1
     DBMS
  • 2
     Data Dictionary
  • 3
     SQL
  • 4
     ERD

8. 다음 중 빅데이터 활용 요소 3가지로 올바른 것으로만 구성된 것은?
  • 1
     데이터, 인프라, 기술
  • 2
     인프라, 프로세스, 인력
  • 3
     데이터, 인력, 기술
  • 4
     프로세스, 인력, 기술

9. 다음 중 직원 개개인의 지식, 프로젝트 경험, 과거 사례 등 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 것이 목적인 데이터베이스 시스템은 무엇인가?
  • 1
     KMS
  • 2
     SCM
  • 3
     ERP
  • 4
     CRM

10. 다음 중 빅데이터의 가치 측정이 어려운 이유가 아닌것은?
  • 1
     데이터 재사용이 일반화되어 특정 데이터를 언제 누가 사용했는지 알기 힘들다.
  • 2
     빅데이터는 기존에 존재하지 않던 가치를 창출한다.
  • 3
     빅데이터 전문 인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있다.
  • 4
     데이터 분석 기술의 발전으로 과거에는 분석할 수 없었던 데이터도 분석할 수 있게 됐다.

데이터분석 기획


11. 분석 과제 도출 방법 중 상향식 접근 방식의 절차로 알맞은 것은?
  • 1
     프로세스 분류 -> 프로세스 흐름 분석 -> 분석 요건 식별 -> 분석 요건 정의
  • 2
     프로세스 흐름 분석 -> 분석 요건 식별 -> 분석 요건 정의 -> 프로세스 분류
  • 3
     프로세스 흐름 분석 -> 분석 요건 식별 -> 프로세스 분류 -> 분석 요건 정의
  • 4
     프로세스 분류 -> 분석 요건 식별 -> 분석 요건 정의 -> 프로세스 흐름 분석

12. 다음 분석과제 발굴의 접근방식에 대한 설명 중 옳지 않은 것은?
  • 1
     디자인 싱킹은 중요한 의사결정 시 상향식과 하향식을 반복적으로 사용하는 방법이다.
  • 2
     분석해야 하는 대상이 확실할 경우 상향식 접근 방식을 사용한다.
  • 3
     데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해 개선해가는 상향식 접근법의 유용성이 점차 증가하고 있는 추세이다.
  • 4
     분석과제 발굴의 상향식과 하향식 접근법은 실제 분석 과정에서 혼용되어 활용되는 경우가 많다.

13. 다음 중 비즈니스 모델 캔버스를 활용한 과제 발굴 영역으로 틀린 것은?
  • 1
     혁신
  • 2
     업무
  • 3
     고객
  • 4
     제품

14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(TASK)로 옳지 않은 것은?
  • 1
     모델링 기법 선택
  • 2
     데이터 통합
  • 3
     모델 테스트 계획 설계
  • 4
     모델 평가

15. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?
데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 1
     데이터 표준화
  • 2
     표준화 활동
  • 3
     데이터 저장 관리
  • 4
     데이터 관리 체계

16. 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 Task로 옳은 것은
  • 1
     비즈니스의 이해 및 범위 설정
  • 2
     필요 데이터 정의
  • 3
     모델 적용 및 운영 방안 수립
  • 4
     모델 발전 계획 수립

17. 다음 중 분석 과제 관리 프로세스에 대한 설명으로 가장 옳지 않은 것은?
  • 1
     과제 발굴 단계에는 분석 아이디어 발굴, 분석 과제 후보제안, 분석 과제 확정 프로세스가 있다.
  • 2
     분석 과제로 확정된 분석 과제를 풀(pool)에서 관리한다.
  • 3
     분석 과제를 진행하면서 만들어진 시사점과 분석 결과물은 풀(Pool)에 잘 축적하고 관리한다.
  • 4
     과제 수행 단계에서는 팀 구성, 분석 과제 실행, 분석 과제 진행 관리, 결과 공유 프로세스가 있다.

18. 다음 중 군집분석 기법으로 적절하지 않은 것은 무엇인가?
  • 1
     PAM
  • 2
     DBSCAN
  • 3
     실루엣 지수(Silhouette Coefficient)
  • 4
     퍼지(Fuzzy) Clustering

19. 빅데이터 분석 방법론 시스템 구현 단계에 해당하는 것으로 짝지어진 것은?
  • 1
     설계 및 구현, 시스템 테스트 및 운영
  • 2
     모델링, 모델 평가 및 검증
  • 3
     설계 및 구현, 프로젝트 평가 보고
  • 4
     모델링, 데이터 스토어 설계

20. 다음 중 분석 과제의 우선 순위 선정 시 난이도와 시급성을 모두 고려 하였을 때, 우선적으로 추진해야 하는 분석 과제는 무엇인가
  • 1
     난이도 - 어려움 , 시급성 - 미래
  • 2
     난이도 - 쉬움 , 시급성 - 미래
  • 3
     난이도 - 어려움 , 시급성 - 현재
  • 4
     난이도 - 쉬움 , 시급성 - 현재

데이터분석


21. 확률 질량 함수의 확률변수 X의 기대값은?
  • 1
     10/6
  • 2
     11/6
  • 3
     12/6
  • 4
     13/6

22. 다음 이산형 확률 분포의 확률 변수 x에 대한 설명 중 적절한 것은 무엇인가?
  • 1
     확률변수 x의 확률의 합은 1보다 작거나 클 수 있다.
  • 2
     확률변수 x가 0이거나 4일 확률은 0이 아니다.
  • 3
     확률변수 x에 대한 기댓값은 13/6 이다.
  • 4
     확률변수 x가 1이거나 2일 확률은 5/6이다.

23. Hitters dataset의 일부이다. 다음 설명 중 적절하지 않은 것은?
  • 1
     Salary 변수 분포는 왼쪽 꼬리가 긴 분포를 가진다.
  • 2
     NewLeague 변수는 범주형 자료이다.
  • 3
     Hits 변수에는 결측값이 없음을 알 수 있다.
  • 4
     HmRun 변수의 최대값은 40이다

24. 다음의 설명에 해당하는 것은?
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
  • 1
     요인 분석
  • 2
     회귀 분석
  • 3
     주성분 분석
  • 4
     다차원 척도법

25. 다음은 USArrest 데이터 주성분 분석 결과이다. 80% 이상을 설명하려면 최소 몇개의 주 성분이 필요한가?
  • 1
     1개
  • 2
     2개
  • 3
     3개
  • 4
     4개

26. 다음 중 잔차의 정규성(Normality) 검정에 대한 설명으로 옳지 않은 것은?
  • 1
     Shapiro-Wilk, Kolmogrov-Smirnov, Aderson Darling 등의 정규성 검정을 위한 방법을 사용한다.
  • 2
     정규성 가정을 충족하지 못할 경우, 상관계수가 높은 변수를 제거한다.
  • 3
     잔차의 정규성 검정은 잔차가 정규 분포를 보이는지에 대한 검정이다.
  • 4
     Q-Q plot으로 대략적인 확인이 가능하다.

27. 데이터마이닝을 위한 데이터 분할과 관련된 설명 중 알맞지 않은 것은?
  • 1
     데이터는 학습용, 검증용, 평가용 데이터로 분할하여 사용할 수 있다.
  • 2
     검증용 데이터(validation data)는 학습과정에서 사용되지 않는다.
  • 3
     검증용 데이터는 훈련에 사용되지 않는다.
  • 4
     데이터 수가 적을 때는 교차 검증을 사용한다.

28. 다음 오분류표를 사용하여 재현율을 구한 결과는 무엇인가?
  • 1
     0.15
  • 2
     0.3
  • 3
     0.4
  • 4
     0.55

29. 우등반에 들어가기 위해서는 어느 시험에서 상위 2% 안에 들어야 한다. 해당 시험 점수의 평균이 85점이고 표준편차가 5일 때, 우등반에 들어가기 위한 최소 시험 점수는? (단, P(Z

30. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은 무엇인가?
  • 1
     평균연결법
  • 2
     혼합분포군집
  • 3
     SOM
  • 4
     DBSCAN

31. 다음 표를 사용한 재현율에 관련된 설명으로 틀린것은?
  • 1
     age 변수는 wage에 대해 유의하지 않다
  • 2
     종속변수는 wage이다
  • 3
     jobclass는 범주형 변수이다
  • 4
     데이터 개수가 3000개이다.

32. 다음 중 과대 적합 방지를 위한 방법이 아닌 것은 무엇인가?
  • 1
     배깅(bagging)
  • 2
     홀드 아웃(Hold-out)
  • 3
     의사결정 나무
  • 4
     Lasso, Ridge 모델

33. 아래의 오 분류표에서 특이도 값을 구하는 식을 구하시오.
  • 1
     TP / (TP + FN)
  • 2
     (TP + TN) / (TP + FP + FN + TN)
  • 3
     TN / (TN + FP)
  • 4
     TP / (TP + FP)

34. 다음 중 거래 데이터에서 추출된 연관 규칙 중 하나인 빵 → 우유의 지지도는?
  항목  : 거래수
빵,치즈,우유 : 10
사과,우유,치즈: 35
우유,빵,사과 : 10
빵,라면   : 25
우유,라면,치즈: 20
  합계  : 100
  • 1
     0.45
  • 2
     0.75
  • 3
     0.44
  • 4
     0.2

35. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
●●◆●●
  • 1
     0.5
  • 2
     0.32
  • 3
     0.48
  • 4
     0.38

36. 모수의 새로운 가설을 옳다고 판단할 수 있는지 표본 통계량 평가 판단과정을 설명하는 용어 중 적절한 것은?
  • 1
     점추정
  • 2
     구간추정
  • 3
     가설검정
  • 4
     연구가설

37. 증거가 확실할 때 가설 검정으로 증명하고자 하는 것은?
  • 1
     귀무 가설
  • 2
     영가설
  • 3
     대립 가설
  • 4
     기각 가설

38. 다음 중 시계열 모형에 대한 설명으로 옳은 것은?
  • 1
     ARIMA의 약어는 AutoRegressive Improved Moving Average 이다.
  • 2
     ARIMA 모형에서 P=0일 때, IMA(d,q) 모형이라고 부르고, d번 차분하면 MA(q) 모형을 따른다.
  • 3
     분해시계열은 일반적인 요인을 분리하여 분석하는 방법으로 회귀분석적인 방법과는 다르게 사용한다.
  • 4
     ARIMA모형에서는 정상성을 확인할 필요가 없다.

39. 777개 대학을 대상으로 졸업률이 비용과 관련 있는가를 회귀 분석한 결과이다. 잘못 해석한 것은 무엇인가? 등록금(Outstate), 기숙사 비용(Room.board), 개인비용지출(Personal)
  • 1
     등록금이 높아지면 졸업률이 높아진다
  • 2
     개인비용지출이 노파지면 졸업률이 낮아진다.
  • 3
     비용과 졸업률 사이의 인과관계를 확인 할 수 있다.
  • 4
     모든 변수의 회귀 계수는 유의미하다.

40. 회귀방정식의 변수 선택 방법에 대한 설명으로 적절하지 않는 것은
  • 1
     전진선택법은 변수를 추가해도 영향을 받지 않는다.
  • 2
     후진제거법은 독립변수 후보 모두를 포함한 모형에서 시작한다.
  • 3
     단계별 선택법은 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가한다.
  • 4
     회귀모델에서 변수 선택을 위한 판단 기준에는 Cp, AIC, BIC등이 있으며 값이 작을수록 좋다.

41. 차원 축소 기법 중, 객체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 기법은 무엇인가?

42. 정규분포 신뢰수준 95%일 때에 대한 설명으로 가장 적절하지 않은 것은?
  • 1
     표본 크기가 커질수록 신뢰구간이 좁아진다. 이는 정보가 많을수록 추정량이 더 정밀하다는 것을 의미한다
  • 2
     99% 신뢰 수준에 대한 신뢰 구간이, 95% 신뢰 수준에 대한 신뢰 구간보다 길다.
  • 3
     신뢰 수준은 모수값이 정해져 있을 때 다수 신뢰 구간 중 모수값을 포함하는 신뢰 구간이 존재할 확률을 말한다.
  • 4
     신뢰 수준 95% 의미는 추정값이 신뢰구간에 존재할 확률이 95%라 할 수 있다.

43. 다음이 설명하는 것은 무엇인가?
클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집분석 타당성 평가지표로 1에 가까울수록 군집화가 잘 되었다고 판단한다.

44. 학습 데이터에 너무 잘 맞게 학습되어 학습 데이터에 대한 성능은 매우 높지만 평가 데이터에 대한 성능은 낮은 상태를 무엇이라고 하는가?

45. 다음 중 분해 시계열의 분해 요인으로 옳지 않은 것은?
  • 1
     정상 요인
  • 2
     추세 요인
  • 3
     순환 요인
  • 4
     계절 요인

46. 다음은 어느 마트의 판매 품목에 대한 결과이다. 커피 -> 우유에 대한 향상도는?
장바구니  /  item
1    커피,빵
2    커피,계란,우유
3    계란,커피,빵,우유
4    계란,우유
5    커피,우유
6    커피,빵,계란
7    우유,빵
  • 1
     0.6
  • 2
     1.25
  • 3
     0.43
  • 4
     0.84

47. 교차판매 / 물건배치 등에 이용되는 분석 기법은?
  • 1
     연관분석
  • 2
     주성분분석
  • 3
     회귀분석
  • 4
     SOM

48. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?
  • 1
     추정된 회귀식은 weight = 24.4654 + 79879*time와 같다.
  • 2
     F=통계량 : 232.7, p-값: 2.974e-08으로 보아 유의수준 5%하에서 추정된 회귀 모형이 통계적으로 매우 유의하다.
  • 3
     time이 1 증가할 때, weight가 5.99만큼 증가한다.
  • 4
     결정계수 또한 0.9588로 매우 높은 값을 보이므로 이 회귀식이 데이터를 약 96% 정도로 설명하고 있다.

49. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?

50. 아래 오류 분포표를 이용하여 구한 F1 값은 얼마인가?
  • 1
     0.5
  • 2
     0.4
  • 3
     0.2
  • 4
     0.3

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr